无监督的强化学习(RL)研究如何利用环境统计,在没有奖励工程成本的情况下学习有用的行为。然而,无监督的RL中的中央挑战是提取有意义地影响世界的行为,并涵盖可能的结果的范围,而不会被环境中固有的不可预测,无法控制和随机元素分散。为此,我们提出了一种无监督的RL方法,该方法是基于两项政策(我们呼叫探索和控制)之间的对手游戏而设计的高维,随机环境,控制单个身体并在观察熵的数量上竞争代理体验。探索代理寻求最大惊喜控制代理的状态,这反过来旨在最大限度地减少惊喜,从而操纵环境以返回熟悉和可预测的状态。这两项政策之间的竞争驱使他们寻求越来越令人惊讶的环境,同时学习掌握它们。我们正式显示所得算法,最大化块MDP的底层状态的覆盖率,随机观察,提供了对我们假设的理论备份,即该程序避免了无法控制和随机分心。我们的实验进一步表明对抗性惊喜导致复杂和有意义的技能的出现,并且在勘探和零射击转移到下游任务方面优于最先进的无监督的加强学习方法。
translated by 谷歌翻译
时间上解耦政策的层次结构提出了一种有希望的方法,可以在复杂的长期计划问题中实现结构化探索。为了完全实现这种方法,需要一种端到端的培训范式。然而,由于在层次结构中的目标分配和目标级别之间的相互作用,挑战,这些多级政策的培训已经有限。在本文中,我们将策略优化过程视为多智能agence过程。这使我们能够借鉴多代理RL的沟通与合作之间的联系,并展示了对整个政策培训绩效的子政策之间增加的合作的好处。通过修改目标函数和后续级别的更高级别政策,我们介绍了一种简单但有效的技术,可以通过修改目标函数和随后的渐变来诱导级别合作。关于各种模拟机器人和交通管制任务的实验结果表明,诱导合作导致更强大的表现,并提高了一套艰难的长时间地平任务的样本效率。我们还发现使用我们的方法训练的目标条件调节政策显示更好地转移到新任务,突出了我们在学习任务不可行的较低级别行为方面的方法的好处。视频和代码可在:https://sites.google.com/berkeley.edu/cooperative-hrl。
translated by 谷歌翻译
梯度反转攻击(或从梯度的输入恢复)是对联合学习的安全和隐私保存的新出现威胁,由此,协议中的恶意窃听者或参与者可以恢复(部分)客户的私有数据。本文评估了现有的攻击和防御。我们发现一些攻击对设置产生了强烈的假设。放松这种假设可以大大削弱这些攻击。然后,我们评估三种拟议的防御机制对梯度反转攻击的好处。我们展示了这些防御方法的隐私泄漏和数据效用的权衡,并发现以适当的方式将它们与它们相结合使得攻击较低,即使在原始的强烈假设下。我们还估计每个评估的防御下单个图像的端到端恢复的计算成本。我们的研究结果表明,目前可以针对较小的数据公用事业损失来捍卫最先进的攻击,如潜在策略的列表中总结。我们的代码可用于:https://github.com/princeton-sysml/gradattack。
translated by 谷歌翻译
自从2020年的Covid-19流行病发作以来,数百万人屈服于这种致命的病毒。已经制定了许多尝试来设计一种可以检测到病毒的自动测试方法。全球各地的研究人员提出了基于深度学习的方法,以使用胸部X射线检测Covid-19。但是,在大多数研究人员使用的公开胸部X射线数据集中,已经提出了问题。在本文中,我们提出了一个2分阶段的方法来解决这个主题问题。已经进行了两个实验作为在数据集中出现偏置存在的方法的第1阶段的一部分。随后,已经提出了在方法的第2阶段中提出了一种图像分割,超分辨率和基于CNN的流水线以及不同的图像增强技术,以减少偏置的效果。 InceptionResNetv2在胸部X射线图像上培训,随着直方图均衡而增强,其次通过阶段2中提出的管道时γ校正,为3级(正常,肺炎和Covid-19)分类产生了90.47%的最高精度任务。
translated by 谷歌翻译
We present a new AI task -Embodied Question Answering (EmbodiedQA) -where an agent is spawned at a random location in a 3D environment and asked a question ('What color is the car?'). In order to answer, the agent must first intelligently navigate to explore the environment, gather information through first-person (egocentric) vision, and then answer the question ('orange'). This challenging task requires a range of AI skills -active perception, language understanding, goal-driven navigation, commonsense reasoning, and grounding of language into actions. In this work, we develop the environments, end-to-end-trained reinforcement learning agents, and evaluation protocols for EmbodiedQA.
translated by 谷歌翻译